Overly optimistic prediction results on imbalanced data: a case study of flaws and benefits when applying over-sampling
نویسندگان
چکیده
Information extracted from electrohysterography recordings could potentially prove to be an interesting additional source of information estimate the risk on preterm birth. Recently, a large number studies have reported near-perfect results distinguish between patients that will deliver term or using public resource, called Term/Preterm Electrohysterogram database. However, we argue these are overly optimistic due methodological flaw being made. In this work, focus one specific type flaw: applying over-sampling before partitioning data into mutually exclusive training and testing sets. We show how causes biased two artificial datasets reproduce in which was identified. Moreover, evaluate actual impact predictive performance, when applied prior partitioning, same methodologies related studies, provide realistic view methodologies’ generalization capabilities. make our research reproducible by providing all code under open license.
منابع مشابه
a study on insurer solvency by panel data model: the case of iranian insurance market
the aim of this thesis is an approach for assessing insurer’s solvency for iranian insurance companies. we use of economic data with both time series and cross-sectional variation, thus by using the panel data model will survey the insurer solvency.
a study on construction of iranian life tables: the case study of modified brass logit system
چکیده ندارد.
15 صفحه اولthe effect of consciousness raising (c-r) on the reduction of translational errors: a case study
در دوره های آموزش ترجمه استادان بیشتر سعی دارند دانشجویان را با انواع متون آشنا سازند، درحالی که کمتر به خطاهای مکرر آنان در متن ترجمه شده می پردازند. اهمیت تحقیق حاضر مبنی بر ارتکاب مکرر خطاهای ترجمانی حتی بعد از گذراندن دوره های تخصصی ترجمه از سوی دانشجویان است. هدف از آن تاکید بر خطاهای رایج میان دانشجویان مترجمی و کاهش این خطاها با افزایش آگاهی و هوشیاری دانشجویان از بروز آنها است.از آنجا ک...
15 صفحه اولa case study of the two translators of the holy quran: tahereh saffarzadeh and laleh bakhtiar
بطورکلی، کتاب های مقدسی همچون قران کریم را خوانندگان میتوان مطابق با پیش زمینه های مختلفی که درند درک کنند. محقق تلاش کرده نقش پیش زمینه اجتماعی-فرهنگی را روی ایدئولوژی های مترجمین زن و در نتیجه تاثیراتش را روی خواندن و ترجمه آیات قرآن کریم بررسی کند و ببیند که آیا تفاوت های واژگانی عمده ای میان این مترجمین وجود دارد یا نه. به این منظور، ترجمه 24 آیه از آیات قرآن کریم مورد بررسی مقایسه ای قرار ...
15 صفحه اولBorderline over-sampling for imbalanced data classification
Traditional classification algorithms, in many times, perform poorly on imbalanced data sets in which some classes are heavily outnumbered by the remaining classes. For this kind of data, minority class instances, which are usually much more of interest, are often misclassified. The paper proposes a method to deal with them by changing class distribution through oversampling at the borderline b...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Artificial Intelligence in Medicine
سال: 2021
ISSN: ['1873-2860', '0933-3657']
DOI: https://doi.org/10.1016/j.artmed.2020.101987